亚洲无码中文字幕hd,日韩精品无码人成视频手机,国产人成亚洲第一网站在线播放,亚洲综合视频在线观看

檔案數(shù)字化中OCR的應用

發(fā)布時間：2019-01-05 閱讀量：131

? 信息時代，檔案數(shù)字化已成為今后一段時期檔案工作的重中之重，紙質(zhì)檔案掃描工作在各地如火如荼地進行。然而，掃描所產(chǎn)生的電子檔案實際上只是以圖像形式存在的文件，而非真正意義上的文本文件。也就是說，計算機只認識檔案的外表，卻不認識其內(nèi)在文字。用戶通過計算機只能看到檔案的原貌，卻不能對其中的內(nèi)容進行引用、檢索等操作，這無疑對將來的電子檔案利用工作造成了很大的不便?？紤]到檔案用戶的利用需求，若要得到真正文本形態(tài)的電子檔案，使檔案數(shù)字化工作更加有效、更加徹底，便要應用到OCR技術。

　 ?一、OCR概況

　　所謂OCR（Optical Character Recognition）即光學字符識別。通俗點說，就是讓計算機

　　“認字”。其原理是通過專門的OCR軟件將含有文字的圖像按字切割成可獨立識別的單元，然后運用各種算法分析每個圖像單元中文字的形態(tài)特征。通過比對標準特征庫中的數(shù)據(jù)，判斷出該文字在計算機中的標準編碼并按通用格式輸出保存在文本文件中。

OCR的工作流程為影像輸入、影像前處理、文字特征抽取、比對識別、人工校正、最后將識別結果輸出保存。①雖然一張圖像真正用于軟件識別的時間不到一秒，但前期和后的加工處理不可小視。尤其是前兩個環(huán)節(jié)的操作，往往決定了OCR軟件的識別率，乃至整個OCR工作的效率。而后期人工校正環(huán)節(jié)，則是保證OCR工作質(zhì)量的最直接環(huán)節(jié)。

　　二、OCR技術的優(yōu)勢及其在檔案數(shù)字化過程中的應用

　　OCR技術相對于傳統(tǒng)的手工錄入方式來說，具有強大的優(yōu)勢。首先，OCR文字識別的速度遠快于手工錄入。根據(jù)國際通行的打字速度評級標準，即使是專業(yè)人員，每分鐘也僅能輸入150~240個字。而采用OCR技術，即使算上前后期的處理環(huán)節(jié)所花時間，其速度也絕對比前者快好多倍。其次，OCR文字識別的質(zhì)量遠高于手工錄入。雖然由于各種因素影響，OCR技術的識別率很難達到100%，但比起大批量手工錄入，其出錯率要小得多。最后，OCR還節(jié)省了大量人力資源，優(yōu)化了資源配置，使人員分配于更加有意義的工作。

　　對于檔案數(shù)字化工作來說，OCR技術除了具有以上幾個普遍的優(yōu)勢之外，還有其獨特的用武之地。

　　1.創(chuàng)新著錄標引方式

　　創(chuàng)建檔案目錄數(shù)據(jù)庫是一項較基礎的檔案數(shù)字化工作，目前大多數(shù)檔案館都在進行這項工作很多檔案館已建成較為完備的目錄庫。然而各檔案部門的檔案條目基本都是通過手工錄入的，既費時又費力，還很容易出錯。尤其是一些檔案、標題很長，又是“印發(fā)”又是“轉發(fā)”一個題名就占了好幾行，要輸入老半天。

　　OCR技術提供了一種新的著錄方式，使檔案條目通過計算機錄入成為可能。工作人員可以直接從OCR后的全文中找到著錄項：如題名、文號、責任者等復制粘貼到目錄數(shù)據(jù)庫的相應字段中去。

　　但這么做必須先掃描檔案全文、OCR然后再輸條目，顛覆了檔案數(shù)字化工作的一般工作流程。因此可行性并不高。還有一種方法是先將檔案卷內(nèi)目錄掃描、OCR處理，再復制粘貼條目或通過特定的程序自動采集條目信息

　　但由于很多卷內(nèi)目錄是手寫的OCR無法識別，只得依靠手工錄入。相信隨著未來技術的發(fā)展，OCR在這方面的應用一定能夠有所突破。

　　此外，系統(tǒng)還可以對OCR后的檔案全文進行詞頻統(tǒng)計、內(nèi)容分析從而自動提取關鍵詞、主題詞等標識符一定程度上實現(xiàn)了檔案內(nèi)容的自動標引。

　　2.實現(xiàn)真正的全文檢索

　　檔案工作中所說的全文檢索實際包括兩種類型：一種是僅對檔案目錄數(shù)據(jù)庫進行檢索，找到相關條目后再打開相應的檔案全文。目前檔案館大多采用這種檢索方式。且尚有很多檔案沒有電子全文。另一種是真正的全文檢索，即直接對檔案全文庫進行檢索，而且是對檔案全文進行逐字檢索。很明顯，后一種檢索方式的查全率比前者要高出很多。使用戶能從浩如煙海的檔案館藏中找到更多所需信息，更深入地開發(fā)利用檔案信息資源。而要實現(xiàn)真正的全文檢索自然離不開OCR技術，因為只有將掃描圖像中的文字變成文本格式，才有可能對其中的文字進行逐字檢索。

　　3.支持雙層PDF技術

　　所謂雙層PDF，就是一個PDF文件中的每一頁都包含兩層，上層是掃描所得到原始圖，下層是OCR識別的文字結果。這種技術在數(shù)字圖書館領域已得到廣泛應用。我們在CNKI等數(shù)據(jù)庫中檢索到的PDF格式的電子文獻大多采用了雙層PDF技術。

　　由于采用雙層PDF技術既能較好地保證檔案的原真性，在用戶需要時又能對檔案中的文字進行選擇、復制、搜索等處理。因此必將在今后的檔案數(shù)字化工作中越來越得到青睞。而這一技術的運用必須首先以OCR技術為支撐。

　　4.拓寬檔案用戶利用面

　　以往的檔案用戶大多是基于檔案的憑證價值而對其加以利用如政府查閱某份文件、居民查閱房產(chǎn)證、結婚證、學籍卡等這些利用需求對檔案的原真性要求較高。很多情況下還是需要紙質(zhì)檔案才能發(fā)揮作用。但檔案用戶的利用面絕不應該僅限于此，檔案除了擁有憑證價值還與圖書、情報一樣具有情報價值、參考價值。如利用檔案進行學術研究時，用戶就更加注重檔案的知識性、信息性但如果檔案是紙質(zhì)的要利用其中的內(nèi)容就必須親自去檔案館。通過印刷或手工摘錄所需信息，非常不便以至于有些用戶轉而通過網(wǎng)站或數(shù)字圖書館查閱所需信息。

　　將紙質(zhì)檔案數(shù)字化并采用OCR識別，能夠使檔案信息資源實現(xiàn)全文檢索、網(wǎng)絡傳輸、方便用戶異地檢索、復制引用。從而深化用戶對檔案內(nèi)容的查詢與利用，拓寬其利用面。使檔案也能像圖書、情報一樣成為人們?nèi)粘Ｉ钪蝎@取信息、利用信息、增加學識的手段使檔案多方面地服務于公眾。

　　三、提高檔案數(shù)字化過程中的OCR識別率OCR識別率是整個OCR工作的中心問題。有專家認為，OCR識別率低于90%，采用OCR技術便毫無意義因為后期需要進行大量的人工校正工作，抵消了OCR所帶來的效率。

對于檔案數(shù)字化這樣浩大的工程來說，提高OCR識別率意味著成倍減少花在OCR工作上的人力物力和時間精力。從而提高整個檔案數(shù)字化工作的效率極大地降低檔案數(shù)字化的成本。

上一條：怎樣使用掃描儀掃描底片？

下一條：高拍儀給我們帶來的各種好處返回

亚洲无码中文字幕hd,日韩精品无码人成视频手机,国产人成亚洲第一网站在线播放,亚洲综合视频在线观看

首頁

解決方案

產(chǎn)品中心

技術服務

關于我們

檔案數(shù)字化中OCR的應用

解決方案

產(chǎn)品中心

技術服務

關于我們

成都總部

貴州分公司

服務熱線